当前位置: 开发笔记 > 编程语言 > 正文

CVPR2022|视频P图新SOTA：推理速度快近15倍，任意分辨率均可上演人像消失大法...

作者：guitar402 | 来源：互联网 | 2023-08-08 08:09

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达丰色发自凹非寺转载自：量子位（QbitAI）众所周知：视频是可以P的。这不，在CVPR2022收录的论文中，就出现

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

丰色发自凹非寺
转载自：量子位（QbitAI）

众所周知：视频是可以P的。

这不，在CVPR 2022收录的论文中，就出现了这么一个P图神器，它可以分分钟给你上演各种人像消失大法，不留任何痕迹。

去水印、填补缺失更是不在话下，并且各种分辨率的视频都能hold住。

正如你所见，这个模型如此丝滑的表现让它在两个基准数据集上都实现了SOTA性能。

△ 与SOTA方法的对比

同时它的推理时间和计算复杂表现也很抢眼：

前者比此前的方法快了近15倍，可以在Titan XP GPU上以每帧0.12秒的速度处理432 × 240的视频；后者则是在所有比较的SOTA方法中实现了最低的FLOPs分数。

如此神器，什么来头？

改善光流法

目前很多视频修复算法利用的都是光流法 （Optical flow）。

也就是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息。

这个方法的缺点很明显：计算量大、耗时长，也就是效率低。

为此，研究人员设计了三个可训练模块，分别为流完成（flow completion）、特征传播 （feature propagation）和内容幻想（content hallucination），提出了一个流引导（flow-guided）的端到端视频修复框架：

E2FGVI。

这三个模块与之前基于光流的方法的三个阶段相对应，不过可以进行联合优化，从而实现更高效的修复过程。

具体来说，对于流完成模块，该方法直接在mask viedo中一步完成操作，而不是像此前方法采用多个复杂的步骤。

对于特征传播模块，与此前的像素级传播相比，该方法中的流引导传播过程在特征空间中借助可变形卷积进行。

通过更多可学习的采样偏移和特征级操作，传播模块释放了此前不能准确进行流估计的压力。

对于内容幻想模块，研究人员则提出了一种时间焦点Transformer来有效地建模空间和时间维度上的长程依赖关系。

同时该模块还考虑了局部和非局部时间邻域，从而获得更具时间相关性的修复结果。

作者：希望成为新基线

定量实验：

研究人员在数据集YouTube VOS和DAVIS上进行了定量实验，将他们的方法与之前的视频修复方法进行了比较。

如下表所示，E2FGVI在全部四个量化指标上都远远超过了这些SOTA算法，能够生成变形更少（PSNR和SSIM）、视觉上更合理（VFID）和时空一致性更佳（Ewarp）的修复视频，验证了该方法的优越性。

此外，E2FGVI也具有最低的FLOPs值（计算复杂度），尽管训练是在432 × 240分辨率的视频上进行，它的HQ版本做到了支持任意分辨率。

定性实验：

研究人员首先选择了三种最有代表性的方法，包括CAP、FGVC（基于光流法）和Fuseformer（入选ICCV 2021），进行对象移除（下图前三行）和缺失补全（下图后两行）的效果比较。

可以发现，前三种方法很难在遮挡区域恢复出合理的细节、擦除人物也会造成模糊，但E2FGVI可以生成相对真实的纹理和结构信息。

此外，它们还选用了5种方法进行了用户研究，结果大部分人都对E2FGVI修复后的效果更满意。

综上，研究人员也表示，希望他们提出的方法可以成为视频修复领域新的强大基线。

作者介绍

E2FGVI由南开大学和海思合作完成。

一作Li Zhen为南开大学博士生，共同一作Lu ChengZe也来自南开。

通讯作者为南开大学计算机学院教授程明明，主要研究方向是计算机视觉和图形学。

目前，E2FGVI的代码已经开源，作者也提供了Colab实现，未来还将在Hugging Face给出demo。

论文地址：
https://arxiv.org/abs/2204.02663

GitHub主页：
https://github.com/MCG-NKU/E2FGVI

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群 ▲扫码或加微信: CVer6666，进交流群 CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！ ▲扫码进群 ▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

推荐阅读

io
稀疏直接法视觉里程计中的特征点优化：基于光度误差最小化的灰度图像线性插值技术

在稀疏直接法视觉里程计中，通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术，提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理，利用RGB-D传感器获取的3D坐标信息，在两帧图像之间实现精确匹配，有效减少了光度误差，提升了系统的鲁棒性和稳定性。 ... [详细]

蜡笔小新 2024-10-31 13:24:59
io
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
io
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
io
专业人士如何做自媒体

专业人士如何做自媒体 ... [详细]

蜡笔小新 2024-11-13 20:59:44
io
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
io
微信平台上的HTML5游戏开发心得

近期，微信公众平台上的HTML5游戏引起了广泛讨论，预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏，作为一名HTML5技术的倡导者，分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]

蜡笔小新 2024-11-13 16:56:47
int
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
int
MATLAB实现Sobel边缘检测算法

图像边缘是指图像中灰度值发生显著变化的区域。Sobel算子是一种常用的边缘检测方法，通过计算图像灰度值的梯度来检测边缘。本文介绍了Sobel算子的基本原理，并提供了基于MATLAB的实现代码。 ... [详细]

蜡笔小新 2024-11-13 10:13:04
io
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
io
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
python
工作8年后薪资从1万跃升至7万，网友惊叹：本科学历实属难得

一位本科毕业生在工作8年后，凭借扎实的技术能力和不断的学习提升，成功将月薪从1万元提高到7万元，引发了网友们的广泛赞叹。这一成就不仅体现了个人的努力与坚持，也反映了当前技术领域对高素质人才的迫切需求。 ... [详细]

蜡笔小新 2024-11-11 13:05:23
int
利用MATLAB实现“逢七必过”游戏规则与数字图像处理技术的应用——第4章深入解析

在《数字图像处理及应用（MATLAB）第4章》中，详细探讨了“逢七必过”游戏规则的实现方法，并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例，展示了如何利用MATLAB实现这一游戏规则，并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面，为读者提供了全面的技术支持和实践指导。 ... [详细]

蜡笔小新 2024-11-11 11:46:42
ip
《从零开始掌握容器云网络实战》技术专栏全新上线

大家好，全新的技术专栏《从零开始掌握容器云网络实战》正式上线。该专栏将系统地介绍容器云网络的基础知识、核心技术和实际应用案例，帮助读者全面理解和掌握容器云网络的关键技术与实践方法。 ... [详细]

蜡笔小新 2024-11-05 15:13:22
io
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07